查看原文
其他

一个函数实现PDF文档合并与拆分

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:王碧琪
文字编辑:方    言
技术总编:张    邯

Stata云端培训课程在腾讯课堂上线啦!

    爬虫俱乐部于2020年7月中旬线上举行的Stata编程技术培训课程在腾讯课堂上线啦!课程通过案例教学模式,帮助学员在短期内掌握Stata的基本命令、编程、数据处理以及结果输出等技术,并对Stata16的实用新功能做了详细介绍。

现在关注公众号并在朋友圈转发推文,即可获得600元课程优惠券,集赞50个再领200元课程优惠!(截图发至本公众号后台领取)原价2400元的课程,现在只要1600元!爬虫俱乐部将于2020年8月25日至28日在线上举行Stata数据分析法律与制度专题训练营,主要是为了让学员掌握Stata软件进阶操作,涉及内容包括基本字符串函数及其应用、正则表达式、法律与制度数据网络爬虫技巧、判案文书的文本分析等技术。课程全部采用最新版Stata16软件(提供Stata16试用版, 试用期一个月)进行教学,课程通过案例教学模式,专题式的讲解使你能在短时间内掌握Stata的精髓,精选的实例和详实的配套资料能让你在课后快速拓展所学,并能够编写一些实用的Stata程序,为进一步学习和科研打下扎实的基础。同时,此次云端课程提供线上答疑。详情请参考今天发的第二篇推文《8月Stata数据分析法律与制度专场来啦!》


最近小编一直使用的pymupdf库真的是一个宝藏库,各种有关PDF的操作,只要你想得到,没有它做不到。这不,最近小编需要合并一些PDF文档,果真有合适的函数。今天我们一起来学习用一个函数来合并与拆分PDF文档吧~~~

一、简介

还是采用之前“蹂躏”过n次的PDF文档--待处理文档“demo1”与待处理文档“1”,它们各自的内容如下:


使用的函数:
insertPDF(docsrc, from_page=-1, to_page=-1, start_at=-1, rotate=-1, links=True, annots=True)。

insertPDF函数主要用于PDF文档的插入,可以插入整个PDF即实现合并,也可以插入PDF文档的指定页码范围即实现拆分。函数仅限于PDF处理:将PDF文档docsrc的页面范围【from_page,to_page】(闭区间包含起止页面)复制到当前页面中。插入的页码以start_at开头。-1是各参数的默认值,所有页码的起始值是0。各参数介绍如下:
(1) docsrc(Document)已打开的PDF文档。
(2) from_page(int):docsrc的首页编号,默认值为0 。
(3) to_page(int):docsrc的末页编号,默认值为最后一页 。
(4) start_at(int):第一个复制的页面将成为目标文档的页面编码start_at。如果省略,则页面范围将附加到当前文档。如果为零,则页面范围将插入当前文档第一页之前。简单来说,用来确认插入文档页面开始放置的位置。
(5) rotate(int):所有复制的页面将旋转给定值(度,90的整数倍)。
(6) link(bool):选择是否在副本中包含内部和外部链接。默认值是true。如果内部链接指向的位置不在复制的页面中,则排除掉。
(7) annots(bool):选择是否在副本中包含注释。

注:如果from_page>to_page,将以相反的顺序复制页面。如果from_page==to_page,将复制一页。

二、合并文档

目的:将两个文档合并为一个新的文档。

(一)引入库并设置文档位置

import fitzfile1="F:/pdfs/demo1.pdf" #待合并文档1file2="F:/pdfs/1.pdf" #待合并文档2mergef="F:/pdfs/merge.pdf" #合并后的新文档

(二)合并

doc1=fitz.open(file1)doc2=fitz.open(file2)doc1.insertPDF(doc2)doc1.save(mergef)
查看生成的新文档内容如下:

三、拆分文档

目的:将“mergef”拆分为两个文档,实现上述程序的逆向处理。

(一)导入库并设置文档位置

import fitzfile3=r"F:\pdfs\mergef.pdf"  #待拆分文档outf1=r"F:\pdfs\megrg-1.pdf" #拆分后的文档1outf2=r"F:\pdfs\megre-2.pdf" #拆分后的文档2

(二)拆分

doc3=fitz.open(file3) #打开待拆分文档doc4=fitz.open() #创建了一个空的pdfdoc4.insertPDF(doc3,to_page=2) #插入doc3中的1-3页doc4.save(outf1) #拆分后的文档1doc5=fitz.open() #创建了一个空的pdfdoc5.insertPDF(doc1,from_page=len(doc1)-1) #插入doc3中的倒数第一页doc5.save(outf2) #拆分后的文档2

最后看一下生成的两个新文档:


四、小结

以上就是今天的全部内容了。简要介绍了insertPDF()函数的基础使用,快速实现PDF文档的合并与拆分。这样,以后要合并或拆分PDF文档的时候,可以试试今天的python代码哦~~







对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐
补全股票代码位数的一百种姿势

明星闪闪亮:各校高被引论文

高校经管类核心期刊发文排行榜|2010-2019

PDF图片提取
PDF文档转换成图片

split和nsplit助你轻松拆分

集成学习介绍之三——Stacking算法

PyMuPDF提取文本信息

Mylabels命令介绍  

用WordStat看中国日报新闻  

数据集的划分——交叉验证法

大数据视角下的大学录取分数排行
集成学习介绍之二——Boosting算法

PDF文本信息提取(二)

取长补短、互通有无 ——集成学习介绍之Bagging &随机森林
PDF表格信息提取
神经网络——brain

关于我们



微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存